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摘要 : [目的 /意义 ] 睡 美人 文献 是 一 类 蕴藏 着 巨大 科学 价值 的 文献 。 对 国内 外 睡 美人 文献 识别 方法 的 相 
关 研 究 成 果 进 行 总 结 与 梳理 ,形成 比较 完整 的 综述 内 容 ,为 国内 该 领域 研究 提供 参考 与 借鉴 。[ 方 法 /过 程 ] 按 
方法 属性 将 识别 方法 总 结 为 4 类 ,概括 各 识别 方法 的 基本 思路 、 识 别 标准 、 优 点 及 局 限 性 ,并 参照 睡 美人 文献 识 
别 方法 的 4 条 原则 进行 对 比 ,指出 各 识别 方法 的 适用 范围 。[ 结果 /结论 ] 睡 美人 文献 识别 方法 已 由 单一 逐渐 丰 
富 ,从 主观 参数 向 客观 指标 演变 ,从 单一 引文 曲线 向 多 种 形式 曲线 并 用 发 展 。 未 来 睡 美 人 文献 识别 研究 可 从 睡 


眠 深度 标准 再 定义 、 识 别 方法 再 组 合 上 深入 。 此 外 ,还 需 重视 睡 美 人 文献 的 定性 研究 和 识别 方法 的 验证 性 研 


究 , 重 视 睡 美人 引文 价值 的 测度 以 及 预测 性 研究 。 
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引文 是 科学 对 话 的 一 种 方式 ,表明 了 新 知识 对 原 
有 和 姜 识 的 使 用 情况 。 引 文 的 变化 反映 了 学 术 研 究 的 动 
态 安 化 ,可 揭示 知识 演化 .扩散 的 潜在 机 制 。 在 文献 计 
Tiger ,文献 的 被 引 次 数 反映 在 时 间 上 的 曲线 称 为 引 
文昌 线 。 引 文 曲 线 有 多 种 形态 ,如 经 典 引 文 曲 线 .指数 
增长 引文 曲线 、 睡 美人 引文 曲线 、 双 峰 引 文 曲 线 ` 波 型 
曲 次 等”。 其 中 , 睡 美人 引文 曲线 表现 为 论文 发 表 之 
后 很 少 引用 ,但 一 段 时 间 之 后 突然 被 大 量 引 用 。 和 荷兰 
WEZA. F. J. Van Raan 巧妙 地 借用 睡 美 人 童话 
把 适 一 特殊 的 引文 现象 命名 为 睡 美人 现象 (sleeping 
beauty) " A. F. J. Van Raan 并 不 是 第 一 个 关注 到 
这 一 现象 的 学 者 ,相关 的 表述 还 有 延迟 承认 ( delayed 
recognition ) ,超前 发 现 (being ahead of time) .抵制 发 现 
(resisted discoveries ) 、 早 熟 发 现 ( premature discover- 
ies) .了 德尔 综合 症 ( Mendel syndrome) 等 ” ,只 是 他 形 
象 而 有 趣 的 命名 为 科学 计量 学 研究 注入 了 趣味 和 活 
力 , 激 发 了 中 外 学 者 更 为 广泛 的 研究 。 叶 座 教 授 其 至 
认为 :科学 睡 美人 现象 与 睡 美人 童话 的 类 比 是 科学 与 
文学 成 功 交融 的 一 个 范例 "。 然 而 ,并 不 是 所 有 的 学 
者 都 赞同 这 一 观点 。C. R. Sugimoto 等 指出 :科学 追求 
的 是 精准 ,科学 术语 需要 经 过 严谨 地 论证 ,应 避免 在 学 


术 出 版 物 中 使 用 文学 隐喻 ”。 由 此 ,近年 来 的 一 些 表 
述 如 睡眠 文献 (sleeping papers) ”冬眠 文献 ( hiberna- 
tor) “等 就 是 基于 这 一 观点 做 出 的 改变 。 

睡 美人 文献 形成 的 要 素 可 归纳 为 3 个 方面 " : 
一 是 科学 家 特性 ,包括 作者 学 术 资历 浅 、 论 文 写 作 能 
不 足 , 未 与 同行 充分 交流 或 交流 语言 障碍 等 ;二 是 客观 
环境 ,包括 科学 家 所 处 的 科研 环境 、 科 学 共同 体 、 当 时 
的 社会 经 济 政治 环境 等 ;三 是 科学 发 现 的 本 身 ,包括 人 研 
究 内 容 的 超前 性 (如 研究 结果 与 当前 公认 的 理论 不 一 
致 . 因 技术 原因 无 法 通过 实验 扩展 为 主流 认 知 . 跨 学 科 
交流 失败 .研究 方法 跨 领 域 应 用 的 合法 性 ) .选择 错误 
类 型 期 刊 发 表 论 文 或 期 刊 影响 力 低 ,这 也 是 最 重要 的 。 
总 之 , 睡 美人 文献 虽 稀 有 ,但 极 富 价值 ,往往 与 科学 研 
究 中 的 重大 发 现 相 关联 。 因 此 ,实现 一 定 程度 的 识别 ， 
不 仅 可 以 使 科学 的 历史 学 家 和 社会 学 家 更 好 地 理解 科 
学 创新 的 过 程 ,更 有 助 于 缩短 科学 认 知 周期 .保护 重大 
科学 发 现 和 促进 科学 发 展 ”。 鉴 于 此 ,本 文 首先 对 国 
内 外 睡 美人 文献 识别 方法 进行 系统 梳理 归纳 ,概括 各 
识别 方法 的 基本 思路 ,总 结 各 方法 的 优点 与 局 限 性 ,其 
次 参照 睡 美人 文献 识别 方法 的 4 条 原则 进行 对 比 , 指 
出 各 识别 方法 的 适用 范围 ,最 后 提出 未 来 的 研究 方向 。 
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1 文献 搜集 方法 与 相关 综述 文献 
1.1 文献 搜集 方法 
为 了 保证 文献 搜集 的 全 面 性 ,笔者 采用 了 3 步 搜 


集 策 略 :QD 在 Web of Science( WoS) 核心 合集 10 个 索引 
子 库 中 进行 检索 。 检 索 式 :TS = (sleeping beauty OR 
delayed recognition OR being ahead of time OR resisted 
discoveries OR premature discoveries OR Mendel syn- 
drome) 。 时 间 路 度 选择 所 有 年 份 (1900 年 -2018 年 ) 。 
由 于 检索 结果 中 包含 大 量 的 医学 .生物 学 文献 。 因 此 
又 通过 Web of Science ZÉ 5l] ——INFORMATION SCI- 
ENCE LIBRARY SCIENCE 进一步 精炼 检索 结果 ,得 到 
105 条 记录 。 通 过 阅读 文献 标题 和 摘要 的 方式 ,剔除 
掉 30 条 与 睡 美人 文献 研究 内 容 不 相关 记录 (如 文献 类 
型 为 Book Review 的 文献 ) ,最 终 得 到 75 篇 相关 文献 。 
加 多 中 国 知 网 学 术 文献 总 库 中 进行 检索 。 检 索 式 : 主 
lies (HESS A. OR sleeping beauty OR 33 WE7K OR 4E 
IGRU OR delayed recognition OR 超前 发 现 OR 抵制 发 
ITOR 早熟 发 现 OR 备 德 尔 综合 证 ) ,并 限定 在 图 书 情 
报 与 数字 图 书馆 领域 。 检 索 式 中 纳入 英文 关键 词 ,可 
彝 往 索 到 在 国内 期 刊 发 表 的 英文 文献 ,最 终 获得 相关 
36 篇 。@ 阅 读 上 述 所 得 文献 的 参考 文献 ,并 通过 
梧 册 搜索 进一步 补 齐 遗 漏 的 11 篇 重要 文献 ,这 些 文献 
类 型 主要 是 学 位 论文 .会 议论 文 以 及 WoS 未 收录 的 研 
窟 下 文 。 综 上 ,共计 获得 相关 文献 122 篇 。 以 上 文献 
搜索 时 间 截 至 2018 年 11 月 30 Ho 
1,27 相关 综述 文献 
一 搜集 的 文献 中 ,明确 为 综述 文献 的 有 3 篇 :一 是 张 
MIE 2014 年 发 表 的 《科学 研究 中 的 迟滞 承认 现象 
研究 进展 》, 该 文 梳理 了 迟滞 承认 相关 概念 及 界定 标 
准 ,分 析 了 迟滞 承认 现象 的 产生 和 唤醒 机 人 制 ,在 界定 标 
准 中 作者 仅 提 及 平均 数 识 别 法 和 四 分 位 数 识别 法 。 二 
是 郭 斐 等 … 于 2016 年 发 表 的 4“ 睡 美人 "文献 研究 综 
述 》, 该 文 聚焦 了 睡 美 人 文献 研究 的 核心 问题 ,包括 识 
别 标准 、 形 成 要 素 .唤醒 要 素 及 预测 模型 ,其 中 识别 标 
准 部 分 描述 了 平均 数 识别 法 . 聚 类 轨迹 建 模 .8 指数 和 
四 分 位 数 识别 法 。 三 是 李江 F 2016 年 发 表 的 《 科 
学 中 的 “ 睡 美人 ”与 “县 花 一 现 ” 现 象 评述 》, 该 文 讨论 
了 基于 平均 数 标 准 和 基于 分 位 数 标准 的 识别 方法 , 提 
及 下 指数 和 Cs 指数 。 此 外 ,在 部 分 研究 论文 的 文献 回 
顾 部 分 ,也 有 对 睡 美人 文献 识别 方法 梳理 的 探讨 。 
但 上 述 这 些 讨论 或 梳理 , 均 缺 少 必要 的 归纳 对 比分 析 ， 
稍 欠 全 面 性 和 系统 性 。 


目前 , 睡 美人 识别 方法 梳理 最 为 全 面 的 是 杜 建 ,在 
其 博士 论文 《“ 睡 美人 ”文献 的 识别 方法 与 唤醒 机 制 研 
究 》 中 ,将 睡 美 人 的 识别 方法 总 结 为 3 类 10 种 :曲线 拟 
合法 (4 种 ) 、 人 为 参数 设 定 法 (2 种 ) 和 无 参数 指标 法 
(4 种 )55 。 本 文 与 之 不 同 的 是 :首先 在 识别 方法 选取 
上 ,本 文 舍弃 部 分 识别 针对 性 不 足 的 曲线 拟 合法 ,如 引 
文 曲 线 分 析 框架 ” ,但 同时 将 最 新 的 研究 成 果 纳 入 ,最 
终 总 结 为 17 种 不 同 思路 的 识别 方法 。 其 次 在 识别 方 
法 梳理 上 ,将 识别 方法 概括 为 4 类 ,并 加 强 了 各 方法 间 
的 横向 比较 。 这 种 比较 有 利于 加 深 各 方法 间 的 内 在 联 
系 以 及 对 识别 思路 演变 规律 的 认 知 。 最 后 参照 识别 方 
法 的 4 条 原则 逐一 检验 了 17 种 识别 方法 ,指出 这 些 方 
法 的 适用 范围 。 


2 ， 睡 美人 文献 识别 方法 梳理 
重 美 人 文献 的 识别 有 定性 和 定量 两 种 思路 。 得 益 


nn 


于 WoS Scopus .CNKI 等 大 型 数据 库 提供 的 引文 数据 ， 
睡 美 人 文献 的 定量 研究 得 以 快速 发 展 。 本 文 将 视角 集 
中 于 定量 研究 ,通过 对 国内 外 研究 文献 的 梳理 ,对 现 有 
识别 方法 进行 归纳 分 类 ,根据 方法 特性 ,大 致 分 为 人 为 
参数 法 .曲线 拟 合法 ,客观 指标 法 数据 变换 法 4 大 类 ， 
见 图 1。 下 文 就 依次 对 这 4 类 17 种 识别 方法 进行 梳 
理 。 


平均 数 识别 法 


分 位 数 识 别 法 


引文 角 测 量 法 
二 次 函数 拟 合 
基于 被 引 速 率 SBc 指数 


Bop 指数 


老化 向 量 0 


fM 
延迟 指数 
\ y 


D, 指数 


下 指数 


图 1 有 睡 美人 文献 识别 方法 框架 


2.1 人 为 参数 法 

人 为 参数 法 就 是 通过 人 为 定义 的 阔 值 来 描述 睡 美 
人 文献 的 引文 特征 。 此 类 方法 有 平均 数 识 别 法 、 四 分 
位 数 识 别 法 和 引文 角 测量 法 。 
2.1.1 平均 数 识别 法 E. Garfield 于 20 世纪 80 年代 
末 首 先 引 入 平均 数 定义 延迟 承认 ,此 标准 为 睡 美 人 文 
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EEWO W. Glünzel 继承 了 
这 一 思路 并 开展 了 更 广泛 的 研究 一 -9 。 上 述 研 究 中 ， 


king period) 内 被 引用 次 数 (不 含 自 引 ) ,唤醒 强度 要 求 
不 低 于 20 次 。2015 年 ,A. F. J. Van Raan 又 进一步 完 


un 


重 美人 文献 的 识别 标准 始终 围绕 延迟 程度 和 认可 程度 
展开 。 延 迟 程度 普遍 采用 文献 发 表 之 初 至 少 3 -5 年 
的 引文 窗口 ,窗口 内 平均 引用 次 数 低 于 1 次 ;认可 程度 
界定 标准 则 差别 较 大 ,有 超过 50 次 .超过 100 次 .超过 
期 刊 累计 影响 因子 的 10 倍 等 多 种 提 法 。 

A. F. J. Van Raan 于 2004 年 提出 了 更 清晰 明确 
的 睡 美人 文献 界定 标准 ,涉及 3 项 指标 :睡眠 时 长 
s( length of the sleep) :论文 处 于 沉睡 状态 的 时 长 ;@ 睡 


善 了 唤醒 期 a 和 唤醒 强度 anin (唤醒 期 年 平均 最 低 引 
用 次 数 ) ”。 通 过 对 不 同类 型 文献 集 ( 时 间 ” 、 期 
TI^ 7 VERLUST 7I) 的 实证 研究 ,A. F. J. Van 
Raan 的 三 指标 法 得 到 学 者 的 广泛 认可 。 三 指标 法 还 
为 引文 角 测量 法 ,二 次 函数 拟 合法 等 识别 法 提 
供 了 阐 值 参考 , 李江 等 开展 的 从 天 才 论 X ( genius 
work ) 中 识别 睡 美 人 文献 的 标准 也 借鉴 了 睡眠 次 度 Vf 
醒 强度 等 概念 ” 。 


眠 深度 C, ( depth. of sleep) :论文 在 睡眠 时 长 * 内 ,年 均 平均 数 识别 法 代表 性 研究 的 比较 见 表 1。 此 类 方 
至 多 被 引 1 次 称 为 深度 睡眠 (deep sleep) ,年 均 被 引 1 法 阔 值 定义 主观 严格 ,未 考虑 学 科 的 差异 , 虽 提 高 了 识 
-2 次 称 为 睡眠 (less deep sleep) ;@ 唤 醒 强 度 Cv ( a- 别 精度 ,但 另 一 方面 导致 识别 率 极 低 。 
wake intensity ) : 4 接 睡 眠 期 之 后 的 4 年 唤醒 时 期 ( awa- 
P R1 平均 数 识 别 法 代表 性 研究 综合 比较 
i ] 实证 研究 
领域 作者 基本 思路 识别 标准 优点 BRE 
文献 集 ”识别 数量 
E. Garfield 定义 延迟 程度 和 认可 ”高 被 引 论 文 发 表 后 至 少 5 年 低 被 引 ;初始 被 引 量 要 求 足够 ”简单 直观、 阔 值 定义 主 。 - 5 篇 
[15 -16] 程度 低 , 典 型 延迟 承认 论文 初始 年 平均 引用 频率 接近 1 次 易于 观察 ” 观 .严格 
论文 发 表 10 年 内 ,引用 次 数 不 超 过 10 次 ;论文 发 表 20 年 - 20 篇 
时 引用 次 数 较 之 前 增 
W. Glünzel 论文 发 表 (a) 初 始 3 年 引用 1 次 ,或 (b) 初 始 5 年 引用 最 =45 万 a 标准 77 篇 
[17-18] 4 2 次 ;其 后 论文 总 被 引 次 数 至 少 达到 100 次 b 标准 29 篇 
论文 发 表 初始 5 年 被 引 次 数 极 少 ; 随后 15 年 获得 至 少 50 ~45 万 60 篇 


定义 睡眠 时 长 *、 睡 眠 
深度 Cs 唤醒 强度 Cy 


E 省 区 将 文献 


m 
5096 ”, 其 次 构建 同年 同学 科 所 有 文献 Year 50% ”的 
分 布 函 数 , 最 后 通过 分 布 函 数 确 定 75% 的 文献 达到 


50% 的 引用 次 数 所 需 的 时 间 (P75 ) 。 
50% 三 P75 ,也 就 是 说 文献 获得 一 半 引 用 次 数 所 需 的 时 
间 大 于 等 于 75% 的 文献 达到 一 半 引 用 次 数 所 需 的 时 
间 , 该 文献 则 被 认为 是 睡 美人 文献 。 

四 分 位 数 识 别 法 考虑 了 文献 的 整个 引文 窗口 。 但 
此 方法 识别 精度 欠 佳 , 按 此 方法 识别 出 的 睡 美人 文献 
占 文献 总 量 的 25% ,不 符合 睡 美 人 是 罕见 现象 的 定 


次 引用 或 10 倍 于 发 表 基 
s=5~10,Cs<2,Cw>20 


5096 引用 次 数 所 需 的 时 间 定 义 为 “Year 


当 某 篇 文献 Year 


刊 20 年 影响 因子 累计 之 和 


二 100 万 ”359 篇 


0。 直 线 1 为 零点 与 引文 高 峰 的 连 线 ,引文 角 B 是 直线 
L 和 时 间 横 轴 之 间 的 夹 角 。 计 算 方 法 如 下 : 


Ble,t) = arctan( <) 


irr Jg A AE SEHR TR] at O REREN tro A t 为 
引用 前 期 峰值 年 份 (t, « n) ,引用 次 数 为 cl, 早期 引文 
828 B, st; Spa nice 21) ,引用 次 数 为 
c; ,后 期 引文 角 为 Ba, M 。 直 观 的 ,B, < «B, 倾向 
于 产生 睡 美人 文献 。 设 刀 ncn 记 -t 时 段 的 
年 均 引 文 为 AC,t<t 前 4 年 的 引文 总 量 为 Ca,t > 
后 4 年 的 引文 总 量 为 Cb。 当 -#10 时 ,Cb >20, 
AC<2 ,引文 角 B, >5°, 该 文献 被 认为 是 睡 美人 文献 。 


义 。 此 外 , 跨 学 科 文献 的 学 科 归 属 也 会 给 识别 带 来 困 
难 。 

2.1.3 ”引文 角 测量 法 ” 叶 认 等 -中 于 2017 年 提出 
动态 引文 角 识别 睡 美 人 文献 的 方法 。 该 方法 主要 步 又 
是 :在 文献 的 年 度 引 文 曲 线 中 ,把 论文 发 表 前 一 年 的 时 
间 点 定义 为 零点 (0,0) ,在 零点 处 ,时 间 和 引文 数 均 为 
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实证 研究 显示 ,WoS 数据 库 1980 年 出 版 的 166 870 篇 
自然 科学 令 页 域 论文 中 ， 符合 上 述 标准 的 睡 美 人 文献 
有 126 篇 

引文 角 测 量 法 是 一 个 半 经 验 化 测度 方法 ,其 重要 
参考 指标 AC Cb B BLESS TZE. HT fü 
函数 数值 随 角 度 的 变化 不 均匀 ,比如 tang, = B 角 在 较 
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2 引文 角 分 析 框架 


小 角度 变化 时 ,其 正切 值 变 化 微小 ;但 当 B 角 在 大 角度 
变化 时 ,其 正切 值 变 化 显著 且 迅 速 。 因 此 ,引文 角 测量 
法 的 敏感 度 不 高 。 

2:9- 曲线 拟 合法 

1 富 曲 线 拟 合 是 指 选 择 适 当 的 曲线 类型 来 拟 合 观测 数 
据 * 并 用 拟 合 的 曲线 方程 分 析 变量 间 的 关系 。 利 用 曲 
线 到 合法 识别 睡 美人 文献 ,有 二 次 函数 拟 合 和 聚 类 轨 
迹 建 模 两 种 思路 。 

2:21. 二 次 函数 拟 合 “ 宋 呈 玉 等 ”提出 用 二 次 函数 
报 全 隆美 人 文献 的 引用 轨迹 。 基 本 思路 是 :一 元 二 次 
西峰 表达 式 为 y=4 + Bx + G^ (C#0) ,其 图 像 是 一 条 
抛 轧 线 。 睡 美人 文献 的 引文 曲线 类 似 于 开口 向 上 的 二 
淡 浏 数 图 像 ,对 称 轴 的 位 置 可 反映 文献 发 表 之 初 年 被 
引 晕 的 大 小 。 依 据 三 指标 法 中 睡 美人 文献 至 少 沉睡 5 
-次 本数 前 半 部 分 为 睡 美人 文献 沉睡 期 年 度 引用 
EIME. WAKRA OriginPro 工具 ,对 1998 年 - 


2002 F WoS 收录 的 图 书 情报 领域 文献 进行 实证 研究 。 
选 皮 被 引 次 数 =20 次 的 1764 篇 论文 ,并 限定 了 15 年 
的 引文 时 间 窗 口 。 研 究 发 现 C >0 且 对 称 轴 位 于 2.5 
-5.5 之 间 的 拟 合 曲 线 较 符合 ,并 依 此 识别 出 4 篇 睡 
美人 文献 。 二 次 函数 拟 合 识别 具有 操作 简便 、 识 别 简 
易 的 特点 ,但 由 于 对 称 轴 位 置 受 沉睡 时 长 影响 较 大 , 因 
此 对 于 较 长 睡眠 期 的 睡 美人 文献 识别 效果 还 需 进 一 步 
验证 。 

2.2.2 XE xt xEÉ S. E. Baumgartner 等 将 
“ 聚 类 轨迹 建 模 ”( Group -based Trajectory Modeling, 
GBTM) 应 用 到 引文 特征 分 析 中 ,采用 的 工具 为 SAS 数 
据 分 析 工 具 加 载 相关 GBTM 子 程序 ,如 PROC TRAJ, 
主要 步骤 为 :首先 选择 零 膨 胀 泊 松 (ZP ) 模型 ,该 分 析 
模型 可 以 观察 更 多 的 零 值 ,因而 比较 适合 引文 曲线 的 
拟 合 ;其 次 ,利用 贝 叶 斯 信息 准则 (BIC ) 检验 统计 量 ， 
选择 最 能 代表 轨迹 间 异 质 性 的 组 数 ;最 后 拟 合 轨迹 形 
状 , 利 用 组 员 平 均 后 验 概率 (APP) 检验 模型 的 充分 性 。 


研究 者 对 6 种 期 刊 和 一 个 学 科 领 域 ( 病毒 学 ) 的 论文 分 
别 进 行 CBTM。 但 只 有 在 Journal of the American Society 
for Information Science 的 79 篇 论文 中 拟 合 到 有 明显 特 
征 的 睡 美 人 曲线 。 有 趣 的 是 , 当 拟 合 组 数 由 5 组 改 为 3 
或 4 组 时 , 原 睡 美 人 组 的 论文 被 分 配 到 其 他 组 中 。 由 
此 可 见 ,该 方法 的 拟 合 效果 与 拟 合 组 数 密切 相关 。 此 
外 , 拟 合 后 组 论文 数值 存在 非 整数 的 现象 ,其 原因 在 于 
有 些 论文 不 能 明确 地 归于 某 一 群体 ,组 论文 数 是 经 加 
权 得 出 。GBTM 存在 的 诸多 局 限 ,表明 引文 曲线 的 复 
杂 和 多 样 化 。 
2.3 客观 指标 法 

睡 美人 文献 的 年 度 引 文 曲 线 一 般 会 呈现 先 抑 后 扬 
的 状态 , 即 文献 发 表 后 几 年 甚至 几 十 年 内 被 引 次 数 很 
少 ,但 从 某 年 开始 ,引用 次 数 快速 上 升 ,直至 年 最 大 被 
引 量 (被 引 高 峰 ) 。 通 过 观察 和 量化 这 一 过 程 来 识别 
睡 美 人 文献 , 有 基于 被 引 速 率 、 参 考 线 和 权重 3 种 思 

,合计 9 种 方法 。 

2.3.1 基于 被 引 速 率 ”被 引 速 率 (citation speed , CS) 
指标 由 本 Wang 提出 , 初 用 来 测度 论文 被 引 次 数 累 


D C/C 
积 的 快慢 。 其 计算 公式 为 :CS = T s 


表示 第 i 年 的 累积 被 引 次 数 ,C, 表示 第 n 年 的 累积 被 
引 次 数 。 被 引 速 率 的 取 值 在 0 -1 之 间 , 被 引 速 率 越 
小 ,表示 论文 被 引 次 数 累 积 得 越 慢 。 杜 建 等 ”-” 将 其 
引入 到 睡 美人 文献 识别 ,认为 睡 美人 文献 在 引文 窗 后 
段 的 年 度 被 引 次 数 高 于 前 段 ,具有 被 引 次 数 累 积 慢 , 被 
引 速率 小 的 特点 。 但 实证 研究 显示 , 仅 以 被 引 速 率 识 
别 睡 美人 文献 效果 并 不 满意 ,被 引 速 率 低 的 引文 曲线 
多 为 直线 增长 型 或 指数 增长 型 *。 

为 了 弥补 这 一 缺陷 , 杜 建 等 设计 了 被 引 速 率 与 延 
迟 承 认 指 数 (DRI) ”或 C57 组合 识别 的 方法 。DRI 
是 论文 年 度 累积 被 引 次 数 的 标准 差 与 被 引 速 率 之 商 ， 
标准 差 反 映 论文 自发 表 后 被 引 次 数 逐 年 累积 程度 的 差 
异 。 睡 美人 文献 年 度 累积 被 引 次 数 的 标准 差 大 ,被 引 
速率 小 ,因而 DRI fig s C5 为 人 为 参数 ,表示 发 
表 之 初 5 年 内 年 均 被 引 次 数 ”。 两 种 组 合 识 别 法 综 
合 比 较 见 表 2。 
2.3.0 基于 参考 线 ”参考 线 法 的 基本 步骤 可 概括 为 
3 步 :定义 引文 曲线 .设置 参考 线 和 累积 参考 线 与 引文 
曲线 之 间 的 距离 或 面积 。 根 据 指标 计算 方式 和 参考 线 
设置 的 差异 , 此 类 方法 包括 B 指数 (beauty coeffi- 
cient) P" ,SBc 指数 、Bep 指数 “老化 向 量 oU 
和 延迟 指数 (DR) ”5 种 ,综合 比较 见 表 3。 


o 其 中 ，,C， 
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R2 基于 被 引 速 率 的 客观 指标 识别 法 综合 比较 
领域 T9 实证 研究 
方法 基本 思路 计算 公式 识别 标准 优点 局 限 性 
作者 数据 集 ”识别 数量 
CS«DRI 杜 建 C5: 反映 被 引 次 数 CS 计算 方法 同上 高 被 引 论文 文献 ”被 引 速 率 可 观察 ”方法 较为 复杂 , 识 “ 学 者 文献 ”2 篇 
组 合 ”等 [32] 累积 的 快慢 ppi = 年度 累积 引用 次 数 的 标准 差 中 , CS 值 越 小 且 ”全 部 引文 曲线 , 消 — 别 标准 不 明确 ,未 集 ,21 篇 
标准 差 : 反 映 论文 年 被 引 速 率 DRI 值 越 大 , 睡 美 ” 除 论文 年 龄 的 影 ”进行 大 规模 实证 论文 
度 累 积 被 引 次 数 的 人 特征 越 明 显 响 检验 
离散 程度 
CS«C5 杜 建 CS: 反 映 被 引 次 数 C5 计算 方法 同上 高 被 引 论文 且 CS ”同上 CS 阐 值 定义 具有 ”期 刊 文献 10 篇 
组 合 ”等 [3] 累积 的 快慢 C5 :发 表 之 初 5 年 内 年 均 被 引 次 ”<0.4,C5 <5.6 人 为 主观 性 集 ,939 篇 
C5: 约 束 睡眠 期 的 数 高 被 引 
引用 次 数 论文 
表 3 基于 参考 线 的 客观 指标 识别 法 综合 比较 
领域 基本 思路 AEN 
方法 - - f 计算 公式 识别 标准 。 “优点 局 限 性 
作者 定义 引文 曲线 设置 参考 线 
B8 指 Q. Ke xx 轴 :论文 年 龄 论文 发 表 年 被 引 次 " 数值 越 大 ， 客观 指标 仅 观察 部 分 引文 曲线 ， 
D 了 轴 : 论 文 年 度数 点 (0,co) 与 引文 mor, VET EQ 6 £35 AUGE 参考 线 设置 易 受 引用 
被 引 次 数 峰值 年 被 引 次 数 点 Camo maxilsc,l 越 明 显 线 波动 干扰 ,总 被 引 
Cmte) 的 连 线 次 数 较 低 睡 美人 文献 
的 鉴别 力 不 大 
* 轴 :论文 年 龄 。 原点 (0,0) 与 论文 Mm pyCAn) ， l 数值 越 大 ， 适合 总 被 ”指数 与 文献 总 被 引 次 
y 轴 : 论 文 年 度 ”年 度 累积 被 引 次 数 、 | ar -yar)] 睡 美人 特征 引 次 数 较 ” 数 相关 性 高 
累积 被 引 次 数 — 最 大 点 (Ams y 越 明显 低 的 文献 
(Atn) ) 的 连 线 
* 轴 :论文 年 龄 。 论文 发 表征 被 引 次 数 。，。 _ IE 数值 越 大 ， 考虑 全 部 ” 尚 不 明确 
7 轴 : 论 文 年 度 — 点 (0,c0) 与 年 度 被 引 PP Tiu 0 正美 人 特征 引文 
被 引 次 数 累积 次数 累 积 百分比 最 大 越 明 显 线 , 并 约 
百分比 点 (tm,1) 的 连 线 UNIS 
用 
* 轴 :论文 年 龄 ”原点 (0,0) 与 点 (1， 0 2(6,A7):G& Gs 和 4 -为 两 个 参数 Cs 值 接近 1 考虑 全 部 ”文献 年 龄 .所 属 学 科 、 
累积 百分比 1) 的 连 线 2x[nxe+(n-1)xez+A+e,]-C HA-=0 引文 曲线 “引文 曲线 形态 对 指数 
y 轴 : 论 文 年 度 Gel Cxn id 有 显著 影响 ;无 法 区 分 
被 引 次 数 累 积 1,C=0 年 引用 量 呈 倍数 关系 
百分比 4 - :参考 线 上 方 与 论文 累积 百分比 曲线 之 间 的 的 文献 ;全 要 素 睡 美人 
面积 识别 困难 141] 
O EM x 轴 : 论 文 年 龄 参考 线 随 年 份 的 不 sc) 2 Xt. [ 5-600] 需 为 当年 发 “考虑 全 部 ”指标 计算 复杂 , 需 计算 
jR Rousseau y 轴 : 论 文 年 度 ” 同 而 不 同 ,1 年 的 参 TWO. d 表 前 1% 高 引文 曲线 ”每 一 年 的 DR 值 ;不 适 
指 。 [39] 累积 被 引 次 数 — 考 线 为 原点 (0,0) KO 7G ees 被 引 论文 ; 合 大 规模 第 选 ; 且 未 进 
数 与 (1,C(1) ) 的 连 线 ADAM H DR CT) 行 大 规模 实证 检验 
(CR) DR(T) = Maxjozir10,K(1) | 50.333 


B 指数 ,又 称 美丽 系数 。 该 方法 直接 采用 文献 的 


年 度 引文 曲线 ,定义 横 坐 标 i 为 论文 年 龄 , 纵 坐 标 c, 为 
论文 年 度 被 引 次 数 , 设 论文 发 表 年 被 引 次 数 点 (0,co) 


与 引文 峰值 年 被 引 次 数 点 (6 ,c, ) 的 


线 为 参考 线 , 计 


算 参 考 线 年 度 对 应 值 与 年 度 被 引 次 数 的 差 , 并 累积 该 
差 值 与 年 度 被 引 次 数 ( 若 年 度 被 引 次 数 为 0, 则 记 为 1) 


的 比值 ”。B 指数 对 那些 特色 


感 , 当 一 篇 文献 上 


REGE 


美人 文献 敏 


眠 时 间 越 长 , H 


E 虐 深度 越 深 ,唤醒 后 
年 度 被 引 次 数 越 高 ,相应 的 B. 值 就 会 越 大 。SBec 指数 


的 思路 和 B 指数 基本 一 致 ,主要 不 同 点 在 于 将 纵 坐 标 
“论文 年 度 被 引 次 数 ” 修 改 为 年 度 累 积 被 引 次 数 ”。 
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此 方法 一 


定 程度 上 能 弥补 B 指数 对 总 被 引 次 数 较 低 的 
睡 美人 文献 (如 总 被 引 次 数 小 于 50 次 ) 识 别 不 足 的 问 
WE, Bep 指数 则 将 纵 坐 标 修改 为 年度 被 引 次 数 累 积 
百分比 ” ,参考 线 定义 为 点 (0 ,co ) 与 年 度 被 引 次 数 累 积 
百分比 最 大 点 (已 ,1) 的 连 线 ,计算 参考 线 年 度 对 应 值 
与 引文 曲线 对 应 值 的 差 ,累积 该 差 值 即 得 到 Bep 指数 。 

B FEU SBc 指数 和 Bep. 指数 突破 了 睡眠 时 间 、 唤 
醒 强 度 等 人 为 定义 的 局 限 , 但 指数 值 并 没有 明确 的 分 


界 值 区 分 睡 美人 文献 与 “正常 "文献 。 学 者 通常 把 指 


数值 最 高 的 前 1% 文献 作为 候选 因 
通过 实证 研究 检验 了 这 3 项 指标 对 用 


美人 文献 。 杜 建 等 
美人 文献 的 识别 


rH 
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效能 。 在 指标 与 总 被 引 次 数 的 相关 程度 上 ,SBe 指数 
> B 187A > Bep 指数 ;SBe 指数 与 总 被 引 相 关系 数 高 达 
0.6, 因 此 认为 SBe 指数 不 适合 用 来 识别 睡 美人 文献 ; 
而 Bep 指数 不 仅 反映 了 观察 期 内 论文 全 部 的 引文 曲 
线 ,而 且 对 论文 发 表 之 初 被 引 次 数 的 约束 效力 显著 高 
T BERG, D RSS REDUCE B 指数 。 

G, 指数 由 李江 等 初 应 用 于 文献 觉醒 概率 的 测 
算 ”!。 孙 建 军 等 沁 在 此 基础 上 提出 文献 老化 向 量 0 
=(6,,4 )。 在 老化 向 量 分 析 框 架 中 , 横 坐 标定 义 为 


必须 经 历 延 迟 (如 10 年 ) 和 认可 (如 当年 发 表 的 前 1% 
的 高 被 引 论文 ) 两 个 阶段 。 在 延迟 指数 分 析 框 架 中 , 横 
坐标 定义 为 论文 年 龄 , 纵 坐标 定义 为 年 度 累 积 被 引 次 
数 。 对 于 一 篇 年 龄 为 7 了 年 的 非 零 引用 文献 ,其 在 1 年 
的 S(t) 可 用 如 下 方法 计算 :定义 年 度 累 积 被 引 次 数 曲 
线 任意 一 时 点 n(O nt) 累积 引用 次 数 为 C(n), 设 
原点 (0,0) 与 (1,C(1) ) 的 连 线 为 参考 线 ,计算 参考 线 
年 度 对 应 值 与 年 度 累 积 引用 次 数 的 差 , 累 积 年 度 差 什 
即 可 得 S(0) 。 知 论文 的 首次 引用 发 生 在 第 上 年 ,S() 


论文 年 龄 累积 百分比 , 纵 坐标 定义 为 被 引 次 数 累 积 百 
分 比 。 由 此 可 见 , 横 坐标 和 纵 坐 标的 最 大 值 均 为 1。 
原点 点 (1,1) 及 其 到 横 轴 、 纵 轴 的 垂 线 可 围 成 一 个 面 
积 为 1 的 正方 形 。 定 义 原点 (0,0) 至 (1,1) 的 连 线 为 
参考 线 。 参 考 线 与 年 度 被 引 次 数 累 积 百分比 曲线 围 成 
一 党 面积 的 图 形 ,其 中 参考 线 下 方 靠近 横 轴 的 面积 定 
JI EAE JH A* 表示 ;参考 线 上 方 靠近 纵 轴 的 面积 定 
DRUG JH AC RR C, 就 是 两 部 分 面积 算术 和 的 2 
READE C, e [ -1,1]。 当 某 篇 论文 的 C, 值 接近 1 H 
人 = 0 , 则 该 论文 可 认为 是 睡 美人 文献 。 

延迟 指数 是 基于 模糊 概念 提出 ,延迟 承认 论文 


可 获得 理论 最 大 值 。 此 时 ,S(i) 就 是 原点 (0,0) C- 
1,0) 以 及 (i,C(i)) 三 点 围 成 的 三 角形 的 面积 。K (1) 
就 是 S(1) 与 理论 最 大 值 的 比值 。 由 此 可 见 ,K(i) e 
[ -1,1]。 延 迟 指数 DR EIE 24 (2 10 时 最 大 的 K(1) 
值 。 线 性 增长 曲线 的 DR(T) =0.333, 其 值 可 作为 判 
断 是 否 延 迟 承 认 的 参考 指标 。 该 方法 尚未 进行 大 规模 
实证 验证 ,识别 效力 还 需 进一步 考察 。 

2.3.85 ”基于 权重 权重 法 就 是 对 不 同 的 年 度 引 用 次 
数 赋予 不 同 的 权重 。 在 睡 美人 文献 识别 中 ,通常 将 较 
大 的 权重 给 予 后 期 引用 ,此 类 方法 有 D, 指数 ”入 
指数 “两 种 ,综合 比较 如 表 4 所 示 : 


表 4 基于 权重 的 客观 指标 识别 法 综合 比较 


基本 思路 


计算 公式 


DES TIE 
URT i" 的 


n ja 
D XIÉXG 
W^ xu voc 
n*xC, 


j 权重 其中 ,oa 为 调整 系数 ,其 值 可 取 1/3 172,27 
e 3 .1.2.3.4,c; 是 i 年 的 引文 数量 ,C, 为 n 年 
-— 中 的 引用 总 量 
mA. A.C. JEU bRHE y DANG - yop)?noc V5 

提 Teixeira —— Bc 人 


HO 等 [8] SKRT 
间 跨 度 平方 
的 权重 


以 指 文献 的 被 引 年 ,yop 指出 版 年 ,roc; 
FE 的 引文 数量 ,N 是 时 间 跨 度 


D, 指数 可 定义 调整 系数 a,a 值 可 限制 引用 总 次 
数 对 识别 效果 的 影响 。 从 识别 结果 看 ,D, 指数 识别 出 
的 睡 美人 多 呈 沉 睡 时 间 长 ,唤醒 后 上 升 快速 的 形 
态 ” 。 这 应 与 后 期 引用 次 数 赋予 更 多 权重 有 关 。 但 
从 男 一 方面 看 ,D, 指数 可 能 不 利于 引用 次 数 已 发 生 衰 
退 的 睡 美人 文献 的 识别 。K 指数 的 特点 与 D, 指数 相 
似 ,早期 的 被 引 次 数 受 到 了 限制 ,后 期 引用 次 数 越 多 ， 
对 天 值 的 累积 贡献 就 越 大 ,因而 更 有 利于 识别 未 来 高 
影响 力 的 论文 。K 指数 算法 的 不 足 是 ,对 于 同一 引文 
曲线 ,选用 不 同 的 时 间 跨 度 IN ,计算 出 的 天 值 不 同 。 经 
实证 检验 ,选取 论文 发 表 年 至 引用 上 升 最 快 年 的 时 间 
窗口 ,计算 得 出 的 天 值 最 大 。 后 期 年 引用 量 放 缓 或 下 


c 


实证 研究 
识别 标准 优点 局 限 性 
数据 集 识别 数量 

D, 值 接近 ”可 定义 a 不 利于 识 28 769 篇 诺 贝 尔 ” 当 a=1 hf, 
于 1, 或 D。 d 别 被 引 次 。 奖 获得 者 论文 ;总 D, RK 
dur ds 数 发 生 训 ”被 引 次 数 不 低 于 前 15 篇 论文 
文献 退 的 睡 美 19 次 均 是 睡 美人 

人 文献 
KERE ”可 定义 分 自 定义 分 5 296 篇 社会 科 UN = 20 
于 1, 或 K 析 时 间 窗 ” 析 时 间 窗 ” 学 .商业 经济 学 领 时 ,识别 出 8 
值 前 1% HN 口 有 一 定 ” 域 “innovation" 主 ”篇 睡 美人 文 
文献 随意 性 题 论文 , 且 总 被 引 献 


次 数 不 低 于 20 次 


降 , 反 而 会 "拖累 "天 值 的 累积 ,导致 天 值 降低 。 这 也 正 
是 李 秀 霞 等 的 实证 研究 ,发 现 其 中 更 符合 睡 美人 文 
献 特 征 的 第 5 篇 论文 ,其 K 值 反而 不 及 第 3 篇 .第 4 篇 
的 原因 。 因 此 ,选择 合适 的 时 间 跨 度 ,对 天 指数 尤为 重 
要 。 对 于 单 篇 论文 ,我 们 可 以 观察 引文 曲线 ,选取 合适 
时 间 跨 度 。 但 同 于 一 个 数据 集 ,统一 的 时 间 跨 度 , 可 能 
会 造成 部 分 睡 美人 文献 识别 下 漏 。 
2.4 数据 变换 法 

数据 变换 ,就 是 通过 变换 将 数据 转换 适合 处 理 和 
分 析 的 形式 。 常 见 的 变换 方法 包括 平滑 . 限 集 、 数 据 概 
化 规范 化 和 属性 构造 “ 。 严 格 意义 上 讲 ,引文 数据 
变换 不 是 一 种 识别 方法 ,但 通过 此 方法 处 理 后 的 引文 
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图 二 情报 三 作 
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曲线 ,结合 一 些 参数 指标 ,也 能 有 较 好 的 识别 效果 。 引 
文 数据 变换 通常 采取 规范 化 和 平滑 两 种 形式 ,涉及 文 
献 动态 归 一 化 引文 影响 力 ( dynamically normalized im- 


pact of citations, DNIC) 、 导 数 分 析 和 规范 化 引文 曲线 3 
种 方法 ,如 表 5 Bron: 


表 5 DNIC、 导 数 分 析 法 和 规范 化 引文 曲线 识别 法 综合 比较 


识别 ”领域 ， : f : uten X 实证 研究 
数据 变换 方式 计算 公式 识别 标准 优点 局 限 性 ”一 一 一 一 一 一 

方法 ”作者 数据 集 ”识别 数量 

DNIC L. 以 同年 、 同 领 定义 时 间 徐 口中 点 ty。 可 避免 年 ” 监 学 科 文 1980 年 - 369 篇 


Eo 
Ph 2 ffs 
Bormann ” 域 . 同 类 型 文献 DNIC; = Ey kzfü) 


等 (51 的 平均 引用 次 £01 osc 
数 为 基准 , 归 一 75 Ngaso “ 
化 引文 曲线 iv 分 别 表 示 文 献 号 .引用 年 份 和 领域 ; 
Ci 为 文献 i 在 第 j 年 的 引用 次 数 ;表示 
领域 所 有 文献 在 第 j 年 中 的 平均 引用 次 
数 ;Nj 是 /年 中 率领 域 非 零 引用 文献 的 数 
Hk = f(i) 表 示 给 定 文献 的 所 属 领 域 
H. Fang FIR 低 通 滤波 dc(0)=c(1) -c(0) 
[48] 器 平滑 引文 dc(1) 2 (c(t £1) -c(t-1))/2 
线 de(n) 2c(n) -c(n-1) 
其 中 ,n 为 论文 年 龄 ,c 为 上 年 的 引用 次 数 


规范 R. Deyl] 五 年 移动 平均 ”将 引文 曲线 最 大 值 定义 基数 1 ,其 余 点 依 
滤波 算法 平滑 ”此 标准 化 缩放 ,因此 规范 化 的 数据 值 都 在 
线 ,以 文献 年 ”[0,1] 之 间 

度 引 文 最 大 值 

为 基准 ,规范 化 
引文 曲线 


= 


将 1> 时 间 段 曲线 峰 RARA ERA wa 1990 年 的 
值 记 为 DNICieu ,>m， 引文 数量 ” 定 所 属 学 537 1589 篇 
线 峰 前 所 有 DNIC; TH 科 论文 

值 记 为 DNIC, peaks» 

DNIC, a, 1>1m > l- 6, 

H. DNIC, peak , «0.4 


IRH dc (4) 在 0 附 ”引入 平滑 ”导数 扩大 - = 
Jt, 且 正 负 值 总 量 相 1 线 克 服 变化 的 形 
当 ; 当 dc(1) 22 睡眠 ”波动 干扰 ， 状 ,导致 唤 
期 结束 可 确定 多 DE 
个 唤醒 期 ” 移 
WEHROSIZS 10 年 且 睡 眠 ”有 利于 发 ”不 能 排除 计算 机 领 5 086 篇 


期 规范 化 值 均 <0.2 现 前 期 引 “ 常 青 树 ” 域 的 
文 相 对 较 ”论文 的 干 178 383 篇 
多 的 睡 美 dE 论文 

人 文献 


文献 引用 频次 不 仅 受 文献 类 型 以 及 所 在 学 科 的 影 
时 也 受 文献 出 版 年 的 影响 。WoS 数据 库 近 20 年 
的 文献 量 超过 20 世纪 100 年 文献 的 总 和 ,文献 数 
增加 可 能 增加 论文 被 引 的 概率 5 。 通 过 归 一 化 
RUE uL) DNIC 引文 曲线 ,可 以 避免 学 科 、 出 版 年 和 
文 馈 类 型 差异 对 引文 数量 的 影响 。 具 体 讲 ,DNIC 就 是 
-入 文献 的 年 度 引用 次 数 与 同年 ,同类 型 、 同 领域 文献 
期 量 被 引 次 数 的 比值 。 若 DNIC, = 1 ,代表 文献 年 度 引 
用 与 总 体 平均 水 平 相等 。DNIC 局 限 性 在 于 识别 睡 美 
人 文献 的 标准 有 -一定 主观 性 ,此 外 跨 学 科 文献 不 易 确 
定 所 属 领域 。 

导数 分 析 法 将 文献 的 年 度 被 引 次 数 c(1) 视 为 一 个 
离散 序列 ,其 导数 可 反映 年 度 引 用 变化 的 速率 和 方向 。 
由 导数 的 含义 可 知 :导数 的 正 或 负 表示 文献 引用 次 数 
的 增加 或 减少 ;导数 值 为 零 ,表明 引用 次 数 保持 不 变 。 
单纯 导数 分 析 引 文 曲 线 是 受 限制 的 ,因为 当 某 年 前 后 
两 年 的 波动 超过 4 次 , 则 该 年 的 年 度 导数 值 就 达到 了 
睡眠 期 结束 的 标准 。 采 用 的 平滑 曲线 可 以 克服 这 种 细 
微波 动 的 干扰 。 导 数 分 析 还 可 以 提取 睡 美人 引文 曲线 
的 睡眠 ,上 升 和 下 降 时 期 。 但 导数 分 析 也 扩大 形变 , 导 
致 识别 的 唤醒 时 间 与 实际 相 比 后 移 。 

规范 化 引文 曲线 识别 法 以 文献 年 度 引 文 最 大 值 为 
基准 ,这 种 “相对 值 "的 比较 有 利于 识别 前 期 引用 次 数 


138 


绝对 数 较 大 ,但 相对 后 期 引用 又 很 小 的 睡 美 人 文献 。 
此 方法 的 弊端 可 能 是 不 能 排除 " 常 青 树 ”论文 (ever- 
green papers) 的 于 扰 。 尽 管 作者 逐一 检验 了 5 086 篇 
睡 美人 文献 的 原始 引用 数据 ,没有 发 现 上 述 类 型 论文 ， 


但 是 在 其 他 学 科 领 域 ,此 方法 还 需 充分 检验 。 


3 ” 睡 美人 文献 识别 方法 的 综合 比较 


李江 等 提出 睡 美人 文献 识别 方法 的 4 A OUI. 
中 早期 被 引 次 数 应 受到 限制 。 识 别 方法 若 能 对 早期 引 
日 进行 限制 , 则 有 利于 睡 美 人 文献 识别 的 准确 率 ; 相 
反 ,文献 早期 过 多 的 引用 ,会 使 睡 美 人 特征 不 显著 , 导 
致 识别 出 现 偏差 。@) 应 考虑 全 部 引文 曲线 。 识 别 方法 
知 仅 考虑 部 分 引文 史 会 足 漏 其 后 有 价值 的 信息 ,不利 
于 一 些 引 文 曲 线 比 较 特殊 的 睡 美人 文献 (如 全 要 素 睡 
美人 ) 的 识别 ,考察 全 部 引文 历史 则 有 利于 文献 引用 全 
貌 的 展示 ,也 有 利于 睡 美人 文献 唤醒 时 间 的 固定 。@®) 
睡 美人 文献 的 唤醒 时 间 应 固定 ,不 应 随时 间 变 化 。@ 
应 避免 人 为 参数 界定 。 

从 论文 早期 被 引 次 数 是 否 受 限制 上 看 :四 分 位 数 
识别 法 通过 “Year 5096 ”限制 早期 引用 ;基于 被 引 速率 
IA SBc 指数 和 延迟 指数 通过 累积 被 引 次 数 限制 早期 
引用 ;Bo 指数 .老化 向 量 0 通过 被 引 次 数 累 积 百分比 
限制 早期 引用 ;D, 指数 和 天 指数 通过 各 年 引用 量 赋 予 
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权重 的 大 小 限制 早期 引用 。 

从 考察 的 引文 时 间 窗 口 看 ,平均 数 识别 法 .引文 角 
测量 法 .二 次 函数 拟 合 .B 指数 只 考虑 了 部 分 引文 曲 
线 。 具 体 讲 ,平均 数 识别 法 仅 考察 了 沉睡 期 至 4 -5 年 
唤醒 期 的 引文 时 间 窗 口 ; 二 次 函数 曲线 拟 合 因 拟 合 限 
制 仅 考察 了 15 年 的 引文 时 间 窗 口 ;有 指数 考察 了 从 发 
表 年 至 年 度 被 引 最 大 值 年 之 间 的 引文 时 间 窗 口 ;引文 
角 测量 法 采用 了 发 表 年 至 后 期 引文 峰 及 之 后 4 年 的 时 
间 窗 口 。 比 较 特殊 的 是 天 指数 ,可 自 定义 分 析 的 时 间 
跨度 ,但 从 实证 检验 来 看 ,采用 论文 发 表 年 至 引用 上 升 
最 快 年 的 时 间 窗 口 有 利于 得 出 最 大 的 天 值 。 

从 能 否 确定 唤醒 时 间 上 看 ,平均 数 识别 法 .B 指 
数 .SBc 指数 、Bep 指数 和 导数 分 析 法 均 能 提示 唤醒 时 
闻 e 平 均 数 识别 法 一 般 将 睡眠 期 结束 后 的 4 -5 年 定 
XE], B 指数 .SBe 指数 和 Bep 指数 确定 唤醒 时 
闻 的 思路 基本 相同 :在 各 自 定义 的 引文 曲线 中 ,年 度 对 
成 这 到 参考 线 的 距离 ( 垂 径 ) 最 大 时 ,其 指向 的 年 份 就 
是 三 美人 文献 唤醒 的 年 份 。 导 数 分 析 法 则 将 平滑 曲线 
内 古 眠 期 至 随后 上 升 期 间 , 年 度 引用 导数 大 于 2 的 年 
TERUEL. 
cx UAM f s s. EA, FROIN M B Ik 
AI feet o] ER FAROR 
BUERE NEME. B 指数 由 于 仅 将 部 分 引文 
曲线 纳入 考察 ,对 于 引文 曲线 含有 多 个 峰值 的 睡 美人 
AER, eem. JP, D 指数 还 存在 唤醒 时 
点 册 数 学 意义 与 实际 意义 可 能 不 符 的 问题 , 即 当 通 过 
- X6 


( 
rh 


公式 计算 得 出 文献 在 某 年 被 唤醒 ,但 实际 上 这 一 年 的 
被 引 频 次 为 零 或 处 于 较 低 水 平 。 相 较 于 B 指数 , Bep 
指数 框架 下 计算 出 的 唤醒 时 间 更 符合 实际 情况 “。 
导数 分 析 法 可 与 其 他 指数 (如 B 指数 ) 结 合 分 析 确 定 
唤醒 时 间 。 通 过 平滑 曲线 分 析 确 定 的 唤醒 时 间 有 不 随 
时 间 变 化 ,不易 受到 波动 干扰 的 优点 ,并 且 对 于 多 次 唤 
醒 的 睡 美 人 ,可 以 确定 所 有 的 唤醒 时 间 ”” 。 

从 参数 是 否 人 为 设 定 上 看 。 人 为 参数 识别 法 、 数 
据 变换 识别 法 涉及 人 为 定义 的 阐 值 。 曲 线 拟 合 识 别 法 
的 拟 合 参 数 需 人 为 设置 , 且 拟 合 效果 也 与 设置 的 参数 
有 关 。 客 观 指标 识别 法 除了 CS + C5 组 合 识别 法 外 ， 
均 避 免 了 人 为 参数 设置 的 次 端 。 其 中 B 指数 、SBc 指 
数 为 绝对 值 指标 ,对 论文 总 被 引 次 数 的 依赖 性 较 高 ; 
Bep 指数、 老化 向 量 OK 指数 和 D, 指数 为 相对 值 指 
标 ,Bcp 指数 和 D, 指数 可 规避 指数 对 被 引 次 数 规模 的 
依赖 。 但 需 注意 的 是 ,上 述 客观 指标 在 界定 睡 美 人 文 
献 时 ,并 没有 严格 地 区 分 国 值 。 比 较 特 殊 的 是 基于 模 
糊 概念 的 延迟 指数 ,识别 过 程 参 考 了 线性 增长 曲线 的 
DR(T), 

综 上 ,当前 睡 美人 文献 识别 法 中 ,能 同时 满足 上 述 4 
条 原则 的 仅 有 SBc 指数 和 Bep 指数 ,但 Bep 指数 适用 范 
围 更 广 。 从 对 文献 集 的 要 求 看 ,四 分 位 数 识别 法 和 DN- 
IC 对 文献 集 数 据 的 全 面 性 要 求 高 ,文献 集 数据 采集 不 全 
会 对 识别 结果 有 重大 影响 。 从 方法 简易 程度 上 看 ,平均 
数 识别 法 二 次 函数 拟 合 Bep 指数 K 指数 和 D, 指数 更 
有 优势 。 识 别 方法 综合 比较 及 适用 范围 如 表 6 所 示 : 


睡 美人 文献 识别 方法 综合 比较 


p^ 
( 


"A 


ELZGEH/E] ERE PES : ABA Zr BL 
人 为 参数 法 平均 数 识别 法 x x v x v TERISHUI 4:35] 90653 | 658] [ELI ,唤醒 快速 
四 分 位 数 识别 法 M v x - v 需 同年 .同学 科 全 部 文献 集合 
引文 角 测 量 法 x x x - v 多 峰 .振荡 或 下 降 型 的 引文 曲线 
1 线 拟 合法 二 次 函数 拟 合 不 明确 x x = v 浅 睡 眠 且 睡 眠 时 间 相 对 较 短 
聚 类 轨迹 建 模 不 明确 V x - V 文献 集 年 龄 相同 
客观 指标 法 基于 被 引 速 率 CS + DRI v v x - M 需 结合 引文 曲线 ,适合 小 规模 数据 集 
CS + C5 M M x - 半 参 数 应 无 限制 
基于 参考 线 B 指数 x x M x x 单 峰 , 或 有 明显 的 主峰 
SBc 指数 v v v M x 引用 次 数 小 于 50 次 
Bep 指数 V V V V x 应 无 限制 
老化 向 量 0 v V x - x 引文 未 发 生 衰退 或 较 少 衰退 
延迟 指数 M M x - x 应 无 限制 
基于 权重 下 指 数 v 可 自 定义 x = x 引文 未 发 生 衰退 或 较 少 衰退 
D, 指数 V V x - x 引文 未 发 生 衰退 或 较 少 衰退 
数据 变换 法 DNIC x V x - V 需 同 年 .同类 型 . 同 领域 文献 集 
导数 分 析 x V v v v 可 用 于 引文 曲线 变化 复杂 的 文献 
规范 化 引文 曲线 x V x = V 睡眠 期 年 均 引 用 绝对 值 较 高 ,但 相对 后 期 引用 较 低 
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总 体 来 看 , 睡 美人 文献 识别 方法 已 由 单一 逐渐 丰 
富 , 从 主观 参数 向 客观 指标 演变 ,从 单一 引文 曲线 向 多 
种 形式 引文 曲线 并 用 发 展 。 但 随 着 研究 深入 的 同时 ， 
一 些 本 质问 题 逐 渐 显现 。 
4.1 睡眠 深度 标准 如 何 定义 ? 

1964 年 C. Dotter 在 Circulation. 上 发 表 一 篇 关于 动 
脉 硬化 闭塞 腔 内 疗法 的 论文 ,该 论文 在 最 初 的 14 年 中 
仅 获 得 51 次 引用 ,但 从 1979 年 开始 引用 激增 ,在 随后 
的 10 余年 中 年 均 被 引 50 次 以 上 。1971 年 J. Folkman 
在 New England Journal of Medicine 上 发 表 了 肿瘤 新 生 
血管 学 说 ,该 论文 在 最 初 的 23 年 中 获得 204 次 引用 ， 
但 从 1995 年 开始 引用 激增 ,至 今 已 获得 6 600 余 次 引 
用 六 很 明显 ,这 两 篇 医学 领域 的 论文 发 表 初期 年 均 被 
引 织 别 为 3.64 和 8. 86 次 , 均 超过 A. F. J. Van Raan 
省 交 的 睡 眼 深度 的 标准 。 但 从 科学 史 视 角 看 ,C，Dot- 
tte 条 J. Folkman 的 论文 均 在 当时 较 长 时 间 内 遭受 主 
流 邓 派 的 忽视 或 不 认同 ,她 们 毫 无 疑问 都 应 属于 睡 美 
尺 交 献 -。 这 种 “超标 现象 "在 用 客观 指数 识别 出 
的 涟 美人 中 还 版 为 常见 。 人 们 不 禁 考 虑 :A. F. J. Van 
Ram 的 睡眠 深度 标准 是 不 是 需 重新 定义 ? 睡眠 深度 
BREET MA 3 个 方面 考虑 :绝对 零 被 引 、 近 似 零 被 引 和 低 
被 引 。 绝 对 零 被 引 是 指 在 考察 的 时 间 窗 口内 未 被 引用 
过 近似 零 被 引 的 被 引用 频次 限定 在 1 -2 次 ,A. F. J. 
VátPRaan 的 标准 也 正 基于 此 ,两 者 阔 值 明确 ,没有 争 
议 达 但 低 被 引 还 未 有 共识 的 定义 域 。 睡 美人 文献 的 低 
被 缠 闵 值 可 能 要 综合 考虑 文献 的 整体 引用 情况 和 所 在 
学 科 特 点 才能 给 出 ,因此 需 进一步 研究 。 
4.2， 现 有 识别 方法 如 何 组 合 ? 
通过 文献 集 识 别 睡 美人 文献 ,不 同 的 识别 方法 识 
别 结果 相差 较 大 。 杜 建 等 比较 了 B 指数 和 Bop 指数 两 
种 方法 识别 结果 ,指标 排名 top0. 1% 的 20 篇 论文 重合 
率 为 60% 7" A. A. C. Teixeira 比较 了 天 指数 与 三 指 
标 法 .8 指数 识别 结果 ,排名 top1% 的 53 篇 论文 中 ,K 
指数 与 三 指标 法 重合 率 竞 为 0, 与 B 指数 重合 率 仅 为 
25% "* 。 这 种 差异 一 方面 与 识别 方法 的 特点 有 关 , 另 
一 方面 也 与 睡 美人 引文 曲线 的 形态 有 关 。 睡 美人 文献 
引文 曲线 一 般 包含 沉睡 唤醒 .高峰 ,衰减 4 个 阶段 (部 
分 睡 美人 引文 曲线 尚未 观测 到 衰减 ) 。 每 个 阶段 又 有 
诸多 影响 因素 ,如 睡眠 时 长 的 长 短 ,睡眠 期 的 引用 状态 
(绝对 低 被 引 .县 花 一 现 、. 相 对 低 被 引 ) .唤醒 至 引文 峰 
所 用 时 长 .唤醒 速度 (快速 缓慢 ) .引文 峰 后 状态 ( 振 
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荡 、 下 降 ) 等 。 复杂 的 形态 增加 了 识别 的 难度 ,单一 识 
别 方法 不 能 同时 满足 各 种 形态 的 睡 美人 曲线 ,因此 可 
以 考虑 对 现 有 指标 进行 组 合 识别 。 目 前 组 合 多 以 单一 
客观 指数 + 主观 参数 认定 ,如 天 指数 + 三 指标 法 、 
被 引 速率 + 发 表 最 初 5 年 年 均 被 引 次 数 ” 等 ,但 还 尚 
未 有 多 种 方法 组 合 识别 的 研究 。 多 种 方法 组 合 识别 应 
达到 互 为 约束 、 互 为 补充 的 效果 ,那么 如 何 组 合 现 有 识 
别 方法 ? 每 种 组 合 识别 的 灵敏 度 、 特 异 度 如 何 ” 哪 种 
组 合 能 达到 最 优 的 识别 效果 ?这 些 也 需 进一步 研究 。 
4.3 重视 识别 结果 的 定性 研究 和 识别 方法 的 验证 性 
研究 

通过 定量 研究 识别 出 来 的 睡 美 人 文献 ,从 严格 意 
义 上 讲 , 还 应 属于 潜在 的 睡 美人 文献 。 睡 美人 文献 的 
最 终 确 定 需 经 科学 史 或 社会 学 分 析 等 定性 方法 进行 批 
判 性 检验 ” 。 遗 憾 的 是 ,多 数学 者 对 识别 结果 并 未 做 
深入 地 定性 探讨 ,这 是 睡 美 人 文献 识别 研究 中 不 足 的 
一 面 ,因此 也 造成 目前 识别 方法 验证 性 研究 缺失 。 在 
机 器 翻译 中 ,机 器 翻译 软件 的 水 平 可 通过 将 机 器 翻译 
出 来 的 文本 与 语料库 中 的 标准 译本 进行 对 照 来 判断 。 
那么 ,在 睡 美人 文献 识别 方面 ,也 有 必要 建立 相当 于 标 
准 译本 的 睡 美人 文献 识别 基线 。 由 此 ,人 们 可 以 对 各 
类 识别 方法 进行 实证 检验 ,从 而 判断 各 识别 方法 的 正 
确 率 、 误 差 率 。 这 对 优选 识别 方法 、 优 化 识别 组 合 、 提 
高 识别 成 功 度 有 重要 意义 。 
4.4 重视 睡 美 人 文献 的 引文 价值 测度 

现 有 睡 美 人 文献 的 识别 方法 均 基 于 被 引 频 次 这 个 
核心 计量 指标 形成 的 引文 曲线 展开 。 但 引用 的 动机 复 
杂 , 只 通过 被 引 频 次 并 不 能 完全 揭示 被 引文 献 对 施 引 
文献 所 贡献 的 学 术 价 值 。 完 整 的 引文 价值 测度 包含 语 
法 和 语义 两 个 层面 ,前 者 涉及 引用 频次 和 引用 位 置 ,后 
者 包含 引用 类 型 和 引用 主题 ”。 因 此 , 除 引 用 频次 
外 ,可 能 还 需 考 虑 以 下 问题 : 施 引 文献 引用 了 睡 美人 文 
献 ,是 引言 .背景 部 分 的 一 般 性 陈述 ,还 是 方法 、 实 验 部 
分 的 重要 参考 ,或 是 讨论 .结论 部 分 的 对 比 依据 ?是 集 
成 .借鉴 的 正面 引用 ,还 是 认同 .评述 的 中 性 引用 ,或 是 
商检 批判 的 否定 引用 ?” 睡 美人 文献 与 施 引 文献 主题 
分 布 的 相似 度 又 如 何 ” 因此 ,通过 引文 价值 测度 可 能 
能 更 好 地 理解 睡 美人 文献 沉睡 和 唤醒 现象 背后 所 蕴含 
的 科学 技术 发 展 机 制 。 
4.5 重视 睡 美人 文献 的 预测 研究 
睡 美 人 现象 拓展 了 文献 计量 对 零 被 引 现 象 的 理 
解 ,那些 传播 与 利用 状况 不 佳 的 文献 并 非 没 有 价值 , 它 
们 之 中 也 可 能 存在 潜在 “精品 ”” 。 睡 美人 文献 识别 
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方法 属于 回顾 性 .历史 性 的 识别 ,但 从 科学 技术 促进 的 
视角 看 ,从 这 些 零 被 引 、 低 被 引文 献 中 进行 预测 性 识别 
才 更 有 意义 。 目 前 ,关于 睡 美 人 文献 预测 研究 成 果 不 
多 ,多 为 理论 研究 ,可 分 为 两 类 。 一 类 是 通过 引用 模型 
预测 ,如 Q. L. Burrell 的 随机 模型 ” 、 李 江 的 心跳 图 
谱 框 架 1。 但 睡 美人 文献 的 预测 并 不 仅仅 是 一 个 数 
学 建 模 过 程 ,更 多 的 还 需 结合 文献 所 蕴藏 的 科学 技术 
价值 进行 预测 。 因 此 ,从 文献 所 包含 的 内 容 属性 进行 
预测 是 条 路 径 。 一 般 认为 , 睡 美人 文献 具有 多 出 
自 跨 学 科研 究 和 综合 性 期 刊 . 多 具有 潜在 技术 与 应 用 
属性 、 多 为 高 质量 研究 的 特征 ,识别 变革 性 研究 并 追踪 
其 技术 转化 应 用 状况 ,是 预测 睡 美人 文献 的 关键 线 
索 '。 因 此 ,综合 此 线索 并 采用 一 定 的 预测 方法 或 综 
合 模 型 ,开展 前 脆性 实证 预测 研究 是 未 来 最 有 价值 的 
研究 方向 。 
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Review on Identification Methods of Sleeping Beauties in Science 
Zong Zhangjian 
Nanjing Medical University Library, Nanjing 211166 

Abstract. [ Purpose/significance] Sleeping Beauty (SB) refers to a wealth of published literatures with great sci- 
entific value. This paper makes a thorough review on the methods to identify SBs at home and abroad, and aims to provide 
reference for future research in this field. [ Method/process | The identification methods are divided into four categories. 
Their theories, criteria, advantages and limitations are summarized. By comparing the Four Rules, the paper points out 
the application scope of each. [ Result/conclusion | From subjective parameter to objective indicator, and one citation 
curve to multiple curve, identification methods of SBs have been enriched. The future study on SBs identification should 
focus on the redefinition of depth of sleep and the unification of existing methods. In addition, the qualitative and confirm- 
atory research on the predictive value of SBs citation should also be considered. 
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